Genómica comparativa

Objetivos

El objetivo de este taller es comprender el alcance y utilidad de las distintas aproximaciones para comparar genomas microbianos. De esta manera, vamos a poner en práctica conceptos evolutivos clave e inferir ortólogos y parálogos. Adicionalmente, vamos a interpretar alineamientos de genomas completos.

Datos

Existen bases de datos muy confiables y altamente curadas para encontrar genoma microbianos especificamente Por un lado, tenemos el Integrated Microbial Genomes & Microbioms (IMG/M) y BacDive, que son bases de datos curadas que poseen un compendio muy amplio de genomas microbianos e información relevante de estos.

En la práctica de hoy, vamos a trabajar puntualmente con en bacterias que conforman la microbiota intestinal humana. Para nuestra conveniencia, también existen un par de bases de datos altamente curadas que están especializadas en este microbioma. Por un lado, tenemos la Unified Human Gastrointestinal Genome (UHGG) (a la cual podemos acceder desde MGnify), que es una base de datos semi-automatizada que busca establecer un catalogo de cientos de miles de genomas microbianos de referencia de la microbiota intestinal del ser humano y asociarla con información relevante de la fisiología de la microbiota y del hospedero. De manera similar, tenemos la bases de datos de microbiota intestinal del Virtual Metabolic Human (VMH), que es un compendio más especializados de microbios que son considerados como altamente relevantes para la microbiota intestinal del humano, en donde además de encontrar información curada de los genomas microbianos, también podemos encontrar reconstrucciones metabólicas a escala genómica (GEMs) curadas de estos microbios.

Vamos a trabajar con una especie bacteriana representativa de cada uno de los principales filos que conforman la microbiota intestinal humana. En las bases mencionadas previamente pueden encontrar genomas para especies de su escogencia, sin embargo es importante que encuentren al menos 4 genomas por especies (idealmente de cepas distintas bien caracterizadas). Por facilidad, en la siguiente tabla les dejamos la información de 4 especies (y 4 cepas para cada especies) quee pueden utilizar para el taller.

Filo Especie Tipo Taxón Acceso NCBI
Bacteroidetes B. fragilis Patógeno oportunista Bacteroides fragilis YCH46 GCF_000009925.1
Bacteroides fragilis NCTC 9343 GCF_000025985.1
Bacteroides fragilis 638R GCF_000210835.1
Bacteroides fragilis 3_1_12 GCF_000157015.1
Firmicutes F. prausnitzii Comensal Faecalibacterium prausnitzii SL3/3 GCF_000209855.1
Faecalibacterium prausnitzii L2-6 GCF_000210735.1
Faecalibacterium prausnitzii M21/2 GCF_000154385.1
Faecalibacterium prausnitzii Fp360 GCF_019967975.1
Proteobacteria C. jejuni Patógeno Campylobacter jejuni subsp. jejuni NCTC 11168 = ATCC 700819 GCF_000009085.1
Campylobacter jejuni subsp. jejuni M1 GCF_000148705.1
Campylobacter jejuni subsp. jejuni ICDCCJ07004 GCF_000355845.1
Campylobacter jejuni subsp. jejuni 81-176 GCF_000015525.1
Actinobacteria B. longum Probiótico Bifidobacterium longum subsp. longum JCM 1217 GCF_000196555.1
Bifidobacterium longum subsp. longum JDM301 GCF_000092325.1
Bifidobacterium longum subsp. longum BBMN68 GCF_000166315.1
Bifidobacterium longum subsp. longum ATCC 55813 GCF_000003135.1
  1. En la página de ncbi busque los genomas seleccionados. Descargue los genomas a su computador (descargue (a) el genoma completo en fasta y (b) las secuencias de aminoácidos en fasta). Seleccione uno de los genomas como referencia y los otros van a ser usados para su comparación.

Le recomendamos guardar todos los genomas en una misma carpeta (e.g. genomes_folder) y todas las proteínas en una misma carepta (e.g. proteins_folder), donde los nombres de los genomas y proteínas coincidan o al menos tengan un sujifo o prefijo en común.

  1. Calcule la distancia ANI entre todos los genomas utilizando skani. Indique cuál fue el ANI y la Fracción Alineada (AF) para cada comparación. Discuta: ¿Cúales fueron las especies más lejanas? ¿Cúales fueron las especies con mayor y menor variabilidad interna?

Use el ambiente de conda skani-0.2.1 para correr skani. Si está enviando un trabajo a un cluster, recuerde que debe activar el ambiente de conda antes de correr el comando, para eso utilice source activate skani-0.2.1. Para generar los heatmaps a partir de las matrices de comparación de los genomas ‘todos contra todos’ debe descargar el script clustermap_triangle.py.

wget https://raw.githubusercontent.com/bluenote-1577/skani/main/scripts/clustermap_triangle.py
  • Comparación de ANI de los genomas ‘todos contra todos’
skani triangle <genomes_folder/*> -t <threads> > skani_matrix.txt
  • Visualización de los resultados de las comparaciones
python clustermap_triangle.py skani_matrix.txt <ani_percentage_tolerance>
  1. Vamos a hacer un análisis de ortólogos para los genomas. Para esto usaremos el programa OrthoVenn3, el cual está disponible en una plataforma web, y se utiliza para la comparación y anotación de grupos de genes ortólogos entre múltiples especies. No se requiere instalación ni registro.
  1. Revise la información presentada en los resultados. Defina los conceptos básicos presentados, ¿a qué corresponden los siguientes términos?:
  • Cluster
  • Overlapping cluster number
  • Cluster count
  • Protein count
  • Singleton
  • Single copy gene cluster
  1. Interprete la información presentada. El gráfico de resumen muestra los grupos de genes ortólogos compartidos entre múltiples especies. ¿Qué tan similares son los genomas analizados? ¿Obtiene información adicional con respecto a lo analizado en los puntos anteriores?

  2. Haga clic en el botón “Pairwise HeatMap” (Mapa de calor por pares) visualice los números de clusters compartidos para las especies de interés de forma pareada. ¿El patrón obtenido corresponde con su predicción inicial?

  3. Al hacer clic en el número debajo de la columna “Cluster number” o en el número que aparece en el diagrama de Venn, se mostrarán los clusters compartidos entre especies. ¿A qué funciones biológicas corresponden los primeros 5 clusters en cada comparación?

  1. Ahora vamos a realizar una comparación centrada en genomas para estudiar la sintenia entre los genomas. Pra esto, escoja una de las especies y realice un alineamiento de las 4 cepas utilizando la herramienta MAUVE. Discuta las siguientes preguntas: ¿Hay sinténia? ¿Qué variaciones entre genomas encuentra interesantes?

Esta herramienta se descarga a su máquina (su propio computador, es un programa de interfaz gráfica y se encuentra disponible para todos los sistemas operativos.

→ Para entregar:

Entregue las respuestas a las interrogantes planteadas acompañadas de pantallazos de los resultados, cuando aplique.